Cuadro
de mandos
Enlace al
repositorio en GitHub
| ODS | No procede | Bajo | Medio | Alto |
|---|---|---|---|---|
| 1 Fin de la Pobreza | X | |||
| 2 Hambre cero | X | |||
| 3 Salud y Bienestar | X | |||
| 4 Educación de calidad | X | |||
| 5 Igualdad de género | X | |||
| 6 Agua limpia y saneamiento | X | |||
| 7 Energía Asequible y no contaminante | X | |||
| 8 Trabajo decente y crecimiento económico | X | |||
| 9 Industria, Innovación e Infraestructuras | X | |||
| 10 Reducción de las desigualdades | X | |||
| 11 Ciudades y comunidades sostenibles | X | |||
| 12 Producción y consumo sostenibles | X | |||
| 13 Acción por el clima | X | |||
| 14 Vida submarina | X | |||
| 15 Vida de ecosistemas terrestres | X | |||
| 16 Paz, justicia e instituciones sólidas | X | |||
| 17 Alianzas para lograr objetivos | X |
Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:
Diagrama metodología de desarrollo CRISP-DM
Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.
A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.
Para la búsqueda del dataset elegido finalmente para la realización
de este proyecto, hemos llevado a cabo una serie de pasos.
En primer lugar, a través del documento facilitado por el profesor,
exploré y contrasté los posibles datasets que aparecían en la tabla
dinámica que ofrecía aquellos datasets que cumplían los requisitos
relacionados con la temporalidad de las observaciones. Tras consultar
con chatgpt, centré mi busqueda en aquellos datasets que tenían un
máximo de ≈1 mill. y mínimo 10 mil observaciones. Aquellos datasets que
tenían un título que me llamara la atención, se los pasaba al chatgpt
para que me diera una breve descripción del mismo. Cuando ya había
seleccionado los suficientes, le pedí que hiciera un top con aquellos
que considerara más adecuados para el proyecto a realizar, según el
temario que se impartiría en la asignatura y que está registrado en el
libro de la asignatura que previamente le pasé a este chatbot.
Tras haber escrito un dataset previamente en la wiki para
registrarlo, sin haber prestado mucha atención a todo las condiciones
que este debía cumplir, terminé eligiendo uno que cumplía todos los
requisitos expuestos en el documento proporcionado por el profesor. Una
vez verificado esto, pasé al siguiente paso de comprensión de los datos
elegidos.
Los datos de nuestro dataset están organizados de forma tidy. Los variables categóricas que existen, su significado, y sus valores posibles son:
freq: Frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.
nace_r2: Rama de actividad económica. Se divide
según la clasificación NACE Rev. 2. Los códigos pueden corresponder
a una sección concreta (ej. A, C, F), a un rango de secciones
consecutivas indicado con guion (ej. B-E, G-I), o a agrupaciones
específicas de varias secciones señaladas con guion bajo (ej.
M_N).
Valores posibles:
na_item: Tipo de indicador económico relacionado con los costes laborales y las horas trabajadas.
unit: Unidad de medida de los valores registrados para cada indicador.
geo: Regiones para las que existen observaciones.
TIME_PERIOD: Fechas de las observaciones. Comprende datos desde 1995 hasta 2023, con observaciones anuales. La cantidad de registros por año varía, siendo especialmente elevada entre 2000 y 2021, destacando los años 2016 y 2020 como los que concentran más observaciones. Cabe destacar que en 2023 el número de registros disminuye significativamente respecto a años anteriores.
## COLUMNA: freq
## freq N.Observ full_name
## [1,] A 432832 Annual
## COLUMNA: nace_r2
## nace_r2 N.Observ full_name
## [1,] TOTAL 72411 Total - all NACE activities
## [2,] O-U 26963 Public administration and defence; compu..
## [3,] O-Q 26756 Public administration, defence, educatio..
## [4,] B-E 25989 Industry (except construction)
## [5,] K-N 25785 Financial and insurance activities; real..
## [6,] F 25713 Construction
## [7,] M_N 25584 Professional, scientific and technical a..
## [8,] A 25569 Agriculture, forestry and fishing
## [9,] C 25569 Manufacturing
## [10,] G-J 25569 Wholesale and retail trade; transport; a..
## [11,] R-U 25452 Arts, entertainment and recreation; othe..
## [12,] G-I 25368 Wholesale and retail trade, transport, a..
## [13,] J 25368 Information and communication
## [14,] K 25368 Financial and insurance activities
## [15,] L 25368 Real estate activities
## COLUMNA: na_item
## na_item N.Observ full_name
## [1,] D1_SAL_HW 387510 Compensation of employees per hour worke..
## [2,] D1_SAL_PER 27607 Compensation per employee
## [3,] HW_EMP 17715 Hours worked per employed person
## COLUMNA: unit
## unit N.Observ full_name
## [1,] EUR 139229 Euro
## [2,] NAC 139229 National currency
## [3,] PC_EU27_2020_MEUR_CP 136659 Percentage of EU27 (from 2020) total (ba..
## [4,] HW 9053 Hours worked
## [5,] PCH_PRE 8662 Percentage change on previous period
##
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
## NUTS Number of Regions
## [1,] 0 29
## [2,] 1 95
## [3,] 2 249
## [4,] EU27_2020 1
## [5,] OTHERS 20
Observamos que el tamaño de las series temporales varía entre 1 y 29 años, siendo el 90% de las series con más de 22 años.
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 1 22 23 23 23 24 29
Observamos que, tanto para España como para Canarias, el nº de
observaciones supera el p75 de la distribución (1199 >
1159)
Percentiles de la distribución del nº de observaciones por regiones
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 69 1002 1128 1149 1159 1199 1369
Nº de observaciones en España/Canarias
## # A tibble: 3 × 3
## geo full_name N.Observ
## <chr> <chr> <int>
## 1 ES Spain 1199
## 2 ES7 Canarias 1199
## 3 ES70 Canarias 1199
El dataset presenta 50 combinaciones únicas de variables categóricas
(freq, nace_r2, na_item,
unit), cumpliendo el criterio mínimo de tener al menos 5
atributos combinados con un número relativamente alto de observaciones
(≈8600 observ.).
## # A tibble: 50 × 7
## # Groups: freq, nace_r2, na_item [17]
## freq nace_r2 na_item unit N.observ init.date end.date
## <chr> <chr> <chr> <chr> <int> <dbl> <dbl>
## 1 A TOTAL D1_SAL_PER EUR 9299 1995 2023
## 2 A TOTAL D1_SAL_PER NAC 9299 1995 2023
## 3 A TOTAL D1_SAL_HW EUR 9083 1995 2023
## 4 A TOTAL D1_SAL_HW NAC 9083 1995 2023
## 5 A TOTAL HW_EMP HW 9053 1995 2023
## 6 A O-U D1_SAL_HW EUR 9041 1995 2023
## 7 A O-U D1_SAL_HW NAC 9041 1995 2023
## 8 A TOTAL D1_SAL_PER PC_EU27_2020_MEUR_CP 9009 2000 2023
## 9 A O-Q D1_SAL_HW EUR 8972 1995 2023
## 10 A O-Q D1_SAL_HW NAC 8972 1995 2023
## 11 A TOTAL D1_SAL_HW PC_EU27_2020_MEUR_CP 8923 2000 2023
## 12 A O-U D1_SAL_HW PC_EU27_2020_MEUR_CP 8881 2000 2023
## 13 A O-Q D1_SAL_HW PC_EU27_2020_MEUR_CP 8812 2000 2023
## 14 A B-E D1_SAL_HW EUR 8713 1995 2023
## 15 A B-E D1_SAL_HW NAC 8713 1995 2023
## 16 A TOTAL HW_EMP PCH_PRE 8662 1996 2023
## 17 A K-N D1_SAL_HW EUR 8645 1995 2023
## 18 A K-N D1_SAL_HW NAC 8645 1995 2023
## 19 A F D1_SAL_HW EUR 8621 1995 2023
## 20 A F D1_SAL_HW NAC 8621 1995 2023
## 21 A M_N D1_SAL_HW EUR 8578 1995 2023
## 22 A M_N D1_SAL_HW NAC 8578 1995 2023
## 23 A A D1_SAL_HW EUR 8573 1995 2023
## 24 A A D1_SAL_HW NAC 8573 1995 2023
## 25 A C D1_SAL_HW EUR 8573 1995 2023
## 26 A C D1_SAL_HW NAC 8573 1995 2023
## 27 A G-J D1_SAL_HW EUR 8573 1995 2023
## 28 A G-J D1_SAL_HW NAC 8573 1995 2023
## 29 A B-E D1_SAL_HW PC_EU27_2020_MEUR_CP 8563 2000 2023
## 30 A R-U D1_SAL_HW EUR 8534 1995 2023
## 31 A R-U D1_SAL_HW NAC 8534 1995 2023
## 32 A G-I D1_SAL_HW EUR 8506 1995 2023
## 33 A G-I D1_SAL_HW NAC 8506 1995 2023
## 34 A J D1_SAL_HW EUR 8506 1995 2023
## 35 A J D1_SAL_HW NAC 8506 1995 2023
## 36 A K D1_SAL_HW EUR 8506 1995 2023
## 37 A K D1_SAL_HW NAC 8506 1995 2023
## 38 A L D1_SAL_HW EUR 8506 1995 2023
## 39 A L D1_SAL_HW NAC 8506 1995 2023
## 40 A K-N D1_SAL_HW PC_EU27_2020_MEUR_CP 8495 2000 2023
## 41 A F D1_SAL_HW PC_EU27_2020_MEUR_CP 8471 2000 2023
## 42 A M_N D1_SAL_HW PC_EU27_2020_MEUR_CP 8428 2000 2023
## 43 A A D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 44 A C D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 45 A G-J D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 46 A R-U D1_SAL_HW PC_EU27_2020_MEUR_CP 8384 2000 2023
## 47 A G-I D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 48 A J D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 49 A K D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 50 A L D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
Observamos que los datos se mantienen constantes desde el año 2000 hasta el 2023, registrando valores más altos en periodos recientes en comparación con los antiguos.
Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)
Vamos a comenzar leyendo el dataset desde local, y haciendo una limpieza general de lo innecesario. Renombramos algunas variables, aliminamos alguna innecesaria, y a añadimos una columna con el nombre completo de las regiones a las que hace referencia geo.
Inicialmente, vamos a comparar diferentes países según los
indicadores que tenemos en el dataset.
En primer lugar, analizamos los países con mayor y menor cantidad
de horas trabajadas en promedio por empleado durante los últimos cinco
años. Los valores representan las horas efectivas trabajadas por semana
por trabajador, calculadas a partir de los datos anuales disponibles. La
línea roja en cada gráfico indica el valor correspondiente a España,
para situar su posición relativa frente a los demás países.
A continuación, vamos a comparar los países en base al coste laboral por hora trabajada. Esta variable, no representa lo que el trabajador cobra neto, sino lo que cuesta al empleador una hora de trabajo. En pocas palabras, es el coste total soportado por el empleador por cada hora efectivamente trabajada por sus empleados. Vamos a comprobar usando el principio de Pareto los países más relevantes en este aspecto.
Vamos a ver como ha sido la evolución de cada uno de estos
países.
Compararemos ahora la remuneración por hora trabajada según el sector
en los últimos 5 años.
Vamos a relacionar ahora el precio por hora trabajada con los países más
releventes en este aspecto.
TOTAL HORAS TRABAJADAS EN EL PROYECTO : 12.26
DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO